の 音 
C 言 語 か ら 直 接 生 成 し た 


ステ ー ト ・ マ シン 記述 を 用 いた FFT 回 路 の 設計 
Design Wave 設 計 コ ン テ ス ト 2007 Professional 部 門 第 1 位 


石井 康雄 


Design Wave 設計 コン テス ト 2007 の Professional 部 門 
第 1 位 の 設計 を 紹介 する . 乗算 器 の 数 を 減ら す た め に ., 仕様 書 
で 示さ れ た RADIX-4 方 式 で は な く , RADIX-4 と RADIX-2 
を 組み 合わ せ た Split-RADIX 方 式 を 採用 し た . また , 加算 器 
に 対し て 規模 の 大 きい 乗算 器 の 使用 効率 を 高め る た め に , スケ 
ジュ ー リ ング を 行い , その ステ ー ト ・ マ シン を 生成 する ソフ ト 
ウェ ア を C 言 語 で 開発 し た . (編集 部 ) 


昨年 は 学生 と し て 参加 し た この コン テス ト で す が , 今 
は 社会 人 と し て 参加 する こと に な り ま し た . 目標 は 昨年 
争っ た 学生 達 と 沖縄 で 再会 する こと で す 和 1. 
さて , 今回 の 課題 は FFT で す . 有利 
いう より は 計算 機 技術 者 な の で , 組み 込み 機器 に 
FEFT の 利用 より は FFTE りな ど を は じ め と し 時 
算 の 話 の 方 が 身近 に 感じ られ ます . そこ で , 低 コ スト 
FPGA 上 へ の 実装 を プロ ト タイプ と し て 最終 的 に 高 性 能 な 
FPGA や ASIC 上 で 実装 し , 科学 技術 計算 に 利用 で きる 高 
計 能 FFT アク セラ レー タ を 作成 する と いっ た スト ー リ を 
作れ な いも の か と 考え て 設計 を 開始 し まし た . 

科学 技術 計算 に お ける アク セラ レー タ と いう アプ ロー チ 
が 近年 注目 を 浴び て いま す . GRAPE プ ロジ ェ ク ド 2② の よ 
う に 完全 な 専用 計算 機 も あれ ば , PlayStation 3 に 採用 され 
て いる CELL プ ロ セ ッ ザ 9 の SPR Synergistic Processor 
Element) の よう に 汎用 的 な SIMU sngle instraction 


り 


stream-multiple data stream) エン ジン も あり ます . 特に , 
GRAPE-7 は FPGA で 実装 され て いま すか ら , FPGA に よる 
科学 技術 計算 は 今日 で は 選択 肢 の 一 つと し て 考え られ て い 
る と 言っ て よい と 思い ます *2. 
数 値 的 な 目標 は さて お いて , 当然 , 科学 技術 計算 を させ る 
の だ か ら , 64 ビ ッ ト の 浮動 小数 点 演算 な ど が 必要 に な る だ 
ろう , な ど と 考え な が ら , 設計 の 方 針 を 決め て いき まし た . 


る 1. 設計 の 方 針 と 目 林 


科学 技術 計算 に 使え る アク セラ レー タ な ど と 大 それ た 目 
標 を 立て た も の の , 実際 に 作る の は プロ ト タイ プ も どき で 
す . 低 コ スト FPGA に FFT 回 路 を 実装 し て 具合 を みる こ 

に し まし た . 

プロ ト タイ プ か ら の 将来 的 な 拡張 も に らん で 設計 する 必 
要 が あり ます . そこ で 今回 は , 設計 の 目標 を 以下 の よう ! 
定め まし た . 

e 回 路 の 小 規模 化 
e 高 性 能 化 高 効 率 化 ) 

e 可 搬 性 の 高 さ 


人 @ 乗算 器 を 削減 し て 回 路 規模 を 抑え る 

回 路 の 小 規模 化 は , コス ト 削減 に つなが り ま す . 回 路 が 
小 規 模 で あれ ば , ダイ が 小さ く な る の で , コス ト 削減 に は 
直接 的 な 効果 が あり ます . また , 一 般 に 半導体 製造 に お い 


注 1: 昨年 に 引き 続き 参加 し て いる 学生 が お り , 非常 に 楽し い コ ン テ ス ト 
だ つた だ た 。 

注 2: 2007 年 3 月 22 日 に Maxwell ? と いう FPGA ベー ス の スー パコ ン 
ピュ ー タ が 発表 され た . 


男 圏 較 
IKEWWWord Split-RADIX, FFT, FPGA, バタ フラ イ 演算 , 複素 数 , 三 番地 文 , DANG, スク ラッ チ パ ッ ド ・ メ モリ 
剛 賠 導 


100 Design Wave Magazine 2007 June 


て は , 回 路 規模 が 下がる ほど 歩留まり が 上 が る の で , 回 路 
規模 は 小さ い に 越し た こと は あり ませ ん . 回 路 の 小 規模 化 


は 必須 の 目標 と 考え まし た . 

具体 的 に は , 乗算 数 の 削減 と いう 最適 化 を し まし た . 一 般 
に , 固定 小数 点 や 浮動 小数 点 の 演算 器 で は , 乗算 器 は 加減 算 
器 と 比較 し て 多く の 資源 を 必要 と する 傾向 に あり ます ま 3 こ 


の た め , アル ゴリ ズム の 変更 に より 乗算 の 回 数 を 減ら すこ 
と で , 必要 と する 乗算 器 を 削減 する こと は , 回 踏 規模 や 消 
費 電力 の 削減 に 有効 で す . し か も , 0 
や す 可 能 性 が 高い 場合 に , 乗算 器 が ビッ ト 幅 の 拡張 に 

Bi の つつ nr 


@ 低 コ スト FPGA 向け を 想定 し て 高い 効率 を 目指 す 

また , 最終 的 に アク セラ レー タ と し て 動作 し て ほし い の で , 
ある 程度 の 演算 速度 , 演算 効率 を 実現 する こと を 目標 と し ま 
す . 専用 アク セラ レー タ は 汎用 計算 機 で 出せ な い 性 能 ま 4 を 
出す こと が 最低 条件 な の で , これ も 当然 の 目標 で す . 

と は いえ , 低 コ スト FPGA で 高 性 能 ・ 高 効率 を 両方 達成 
する の は 困難 で すか ら , 高 性 能 は ひと まず 据え 置い て 高 効率 
を 目指 すこ と に し ます . 加算 器 と 乗算 器 の スル ー プ ッ ト が 等 
し い 汎 用 プロ セッ サ の 環境 で は , 演算 器 の 利用 効率 注 5 が 
625% を 超え る こと が な い の で , 63% 以上 の 演算 器 の 利用 率 
を 目標 と し まし た . 

また , 演算 性 能 は FPGA の 性 能 も 考慮 し , 演算 回 路 の 内 
部 クロ ッ ク 100MHz を 目標 と し まし た . 低 コ スト FPGA で 
この 程度 動く な ら , 高価 格 帯 で 150MHz ~ 300MHz 程度 , 
ASIC ま ば 6 に すれ ば 300MHz ~ 500MHz 程度 の 動作 周波 数 が 
得 ら れる で し ょ う . また , 演算 器 や 内 部 メモ リ も 大 量 に 搭 
載 で きま すか ら , 専用 計算 機 と し て 実現 する 価値 の ある も 
の が で きそう です. 


人 仕様 変更 を 考慮 し て 可 搬 性 を 高め る 

拡張 性 の 高 さ も 追及 し な く て は な り ま せん . 今回 の 設計 
は プロ ト タイ プ と いう 位置 づけ で あれ ば , いっ た ん 実用 化 
し た 後に さら な る 拡張 の 要求 が 必ず ある わけ で す . この 要 
求 と し て は , 例え ば デー タ 幅 の 増大 固定 小数 点数 か ら 浮 
動 小 数 点数 の 利用 へ の 変更 ), FFT に 利用 する 点数 の 増大 
( 4 点 か ら 4096 点 な ど ) な ど が 挙げ られ ます . この よう な 
要求 に 対し て 最小 の コス ト ( VHDL フ ァイル の 一 部 の 定数 
値 の 変更 な ど ) で 対処 で きる よう に デー タ ・ パ ス を 設計 し 
た いと 考え まし た . 


⑱ コン テス ト 向 け に お も し ろく 
これ ら の 目標 を 達成 する た め に , アル ゴリ ズム と デー 
0 衝 HRP 設計 を 行う こと に し まし 
. また , コン テス ト と いう 特性 も ある の で , トレ ー ド オ 
フ で 迷う こと が あっ た 場合 に は , お も し ろ い 方 を 選ぶ と い 
うこ と も 設計 方 針 に 付け 加え て いま す . 


ここ で は , コン テス ト で 採用 し た アル ゴリ ズム と , その 
背景 に 関し て 説明 し ます . 

まず , 最適 化 は 大 きく 二 つ に 分 か れ て いま す . 一 方 が 複 
素数 乗算 の アル ゴリ ズム の 最適 化 で , も う 一 方 が FFT の 
バタ フラ イ 演 算 の アル ゴリ ズム の 最適 化 で す . それ ぞ れ に 
対し て 注目 し , 可能 な 限り 乗算 回 数 を 減ら す よ うに 最適 化 
を 行い まし た . 


@ 複素 数 計算 の アル ゴリ ズム 

当たり 前 の 話 な の で す が , FFT 中 に 発生 する 乗算 は , 基 
本 的 に は すべ て 回 転 因 子 と の 複素 数 乗算 で すま 7. これ を 踏 
まえ て 最適 化 を 行っ て いき まし ょ う . 

一 般 に 複素 数 +. x) と 回 転 因 表 ww) の 乗算 結果 ヵ , 
ァ ) は , 以下 の よう に 計算 され ます . 


0/ ロ タカ) 9 計 一志 ) Wi 


カー を * 十 を " ゆ 


これ は 皆さん ご 存 知 の 数 学 の 教科 書 に 載っ て いる 方 法 で 
す . この 計算 で は , 一 つの 複素 数 乗算 に 対し て 4 回 の 実数 
乗算 が 必要 で す . し か し , この 計算 の 形式 を 変更 する と , 
乗算 の 回 数 を 3 回 に 減ら すこ と が で きま すま ば 8. 


カ め 式 ャ 二 )・ 
み ー が め ー 二 ( 衝 十 w) 


》』 三 め め ー MS 一 79) 


注 3: WX W 乗 算 器 の 乗算 器 は び A?) 以上 の 資源 を 必要 と する . し か し , 
W 十 の 加算 器 は び ) て の /log /) 程度 で 実現 され る こと が 多い . 

4: ここ で の 性 能 と は 消費 電力 あたり の 演算 性 能 な ど で あ っ て も よい . 

E5: この レポ ー ト 中 で は 演算 全体 に か か っ た 時 間 サイ クル 数 ) で 演算 器 が 
実際 に 演算 し た 時 間 を 除 し た も の で 定義 する . 

注 6: ほん と うに 作る と な れ ば , 米国 Altera 社 の HardCopy の よう に FPGA 
か ら ASIC へ の 設計 パス が 存在 する の で , それ を 利用 する の が よい だ 
る う .。 

E7: RADIX-8 の 場合 に は スカ ラ 値 と の 積 も 含ま れる . 

E8: 正確 に は 2 回 の 加算 と 4 回 の 乗算 を 3 回 の 加算 と 3 回 の 乗算 に 置き 換え 
る こと に な る . 


本 貞 
RT 


評 肖 
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この 計算 中 に 出 て くる 値 の うち ゃ 十 と ッッ ー は 回 転 
因子 の 和 と 差 な の で , 事前 に 計算 可能 で す . この 値 を あら 
か じ め 計 算 し , ROM 領域 に 保持 する こと で 3 回 の 加減 算 
と 3 回 の 乗算 で 実現 可能 で す . 

し か し , この 方 法 を 知ら な か っ た 方 も 多い と 思い ます. 
な ぜ で し ょ うか . これ に は , いく つか の 理由 が あり ます . 
eFFT で は も と も と 実数 乗算 の 回 数 が 実数 加算 の 回 数 と 比 

較 し て 少な いま 9 
e 多く の 汎用 の プロ セッ が x86 な ど ) で は 乗算 と 加算 の ス 

ルー プッ ト が 等 し いき 10. 

e 加減 算 は けた 落ち の 危険 が 高い の で 多用 し た く な い 浮 

動 小数 点 演算 の 場合 ). 

も と も と 演算 回 数 が 少な く , 遊ん で いる 乗算 器 の 利用 効 
率 を 上 げ る こと に も 意味 が な いた め , この 最適 化 を 行う 必 
要 は な か っ た わけ で す . し か も , 複素 数 の 加減 算 の 回 数 と 
乗算 の 回 数 が 等 し い 場合 に は , 4 回 の 加減 算 と 4 回 の 乗算 
と な り , 汎用 プロ セッ サ と し て は 具合 が 良い アル ゴリ ズム 
に な っ て いる と いう 背景 も あり ます . 

し か し , 今回 の よう に 自由 に 演算 リソー ス が 割り 当て ら 
れる 場合 に は , 加算 器 を 増やす こと で 乗算 数 削減 の メリ ッ 
ト を 享受 する こと が で きま す . 

けた 落ち の 危険 に つい て は , ほん と う は 考慮 する 必要 が 
ある の で す が , 固定 小数 点 に は 桁 落 ちの 心配 が な いこ と と 
コン テス ト 用 の カス タマ イズ と いう こと で 目 を つぶ る こと 
に し まし た . 実際 に は 適用 する アプ リケーション と 必要 な 
精度 な ど を 考慮 し て , この 最適 化 を 適用 する か どう か を 考 
える 必要 が あり ます . 

以上 の 考察 か ら , 今回 の 設計 で は この 乗算 回 数 を 間 引 い 
た 複素 数 乗算 方 式 を 採用 する こと に し まし た . 


へ | 


注 9: 一 般 的 な FFT 演算 の アル ゴリ ズム で , 実数 加算 と 実数 乗算 の 比率 は , 
お お よそ 4: { 表 1 参 照 ) 
注 10: ここ で の 加減 乗除 は 浮動 小数 点数 を 仮定 し て いる . 
注 11: 例え ば , HPC 分 野 で 利用 され る FFTE で は 基底 2 3, 4, 5, 8 の 
FEFT を 混合 し て 計算 を する . 


表 1 


実数 演算 回 数 の 比較 ER 複素 数 乗算 最適 化 あり 


5 バタ フラ イ 


複素 数 乗算 最適 化 な し 


@ FFT バタ フラ イイ 演算 

繰り 返し に な り ま す が , FFT 演算 の 中 で 発生 する 乗算 
は , 基本 的 に は すべ て 回 転 央 子 と の 複素 数 乗算 で す . 回 転 
因子 は , どこ で , どの 回 転 因子 を 適用 する か が FFT の 問 
題 サ イズ で 事前 に 決ま っ て いる た め , これ を 利用 し て 一 部 
の 回 転 因子 と の 複素 数 乗算 を 取り 除い た り , スカ ラ 乗 算 へ 
変更 する こと が 可能 で す . これ は バタ フラ イ 演 算 の バリ 
エー ショ ン を 増やす こと で 可能 に な り ま す . 

また , FEFT の 基数 の 増加 は , 同様 に 乗算 の 回 数 を 削減 す 
る 効果 が あり ます . 課題 C 示 され た アル ゴリ ズム は RADIX- 
4 方 式 で , 最も 利用 され て いる 基数 の ひと つ で す . も ちろ 
ん , これ を 単純 に 拡張 し た RADLX-8 方 式 な ども 乗算 回 数 
を 減ら す 手 段 と し て 知ら れ て いる の で す が 注 1, 今回 は さら 
な る 最適 化 を 目指し, Split-RADIX と いう 手法 を 用 いま す . 

この Spiit-RADIX 方 式 で は , RADIX-4 演 算 と RADIX-2 
演算 を 混ぜ る こと に より , RADTIX-8 方 式 以 上 に 乗算 回 数 を 
削減 する こと が 可能 と な る アル ゴリ ズム で す . 一 般 の バタ 
フラ イ 演算 と 異な り , バタ フラ イ の 形状 を 工 字 型 に と る こ 
と に よっ て , 無駄 な 複素 数 乗算 を 省き, 加算 も 可能 な 限り 
削減 で きま す . 

し か し , Split-RADIX 方 式 の FFT 演算 に は ひと つづ 非常 
に 重大 な 問題 点 が あり ます . それ は , ルー プ 構 造 が 非常 に 
複雑 に な る と いう こと で す . 一 般 に 複雑 な ルー プ 構 造 は , 
プロ セッ サ の 実行 効率 を 著しく 下げ て し まい ます . この こ 
と が , Split-RADIX 方 式 が メジ ャ ー に な れ な い 要 因 と な っ 
て いま す . 

今回 は この 問題 を 完全 な ルー プ 展 開 を 併用 する こと で 解 
決し まし た . これ は 汎用 の FFT プロ グラ ム で な く , W 点 限 
定 の FFT アク セラ レー タ だ か ら で き る こと だ と 思い ます . 
具体 的 に は , 64 点 の FFT は バタ フラ イ の 数 や FEFT の 基 


数 を 決定 する と , 演算 の 順序 な ど は 一 意 に 定まる と いう 性 
質 を 利用 し ます . 一 意 に 定まっ て いる わけ で すか ら , その 
ルー プ 構 造 に 沿っ て すべ て の ルー プ を 展開 すれ ば , 問題 
だ っ た 複雑 な ルー プ 構 造 は 消え て し まい ます . も し も , 


複素 数 乗算 最適 化 な し 


書 
204 仕様 書 の 方 式 


5 バタ フラ イ 


乗 算 加 算 


乗 算 加 算 乗 二 算 加 算 乗 算 加 算 


RADIX-2 1032 


332 964 516 1026 640 1088 


RADIX イ 976 


264 920 930 


RADIX る 972 


248 928 930 


Split-RA DIX 964 
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248 912 選 


4096 点 の FFT を 実装 し た い 場 合 に は , も う 一 度 ル ー プ を 
展開 し な お す よ うに し ます . 

これ で , FPGA の 和 柔軟 性 と ハー ド ウェ ア 実 装 な ら で は の 
最適 化 が 完成 し まし た . 


@⑯ FFT アル ゴリ ズム と 固定 小数 点数 乗算 の 回 数 

実際 に 上 述 の アル ゴリ ズム 変更 で どれ だ け 乗 算 回 数 が 削 
減 で きる か を 表 1 に 示し ます . 

64 点 FFT に お いて は , 本 設計 で 採用 し た アル ゴリ ズム 
で は 乗算 回 数 が 196 回 で し た . 課題 で 示さ れ た アル ゴリ ズ 
ム の 乗算 回 数 384 回 ) か ら 49.0% 削 減 で き て いる こと が 確 
認 で きま す . その 分 , 加算 回 数 が 増え て いま す が , 加算 器 
は 乗算 器 と 比較 する と 「 安い 」 資 源 な の で 目標 の 達成 は で き 
て いる の で は な いか , と 考え て いま す 


る 3. アル ゴリ ズム の 実装 に 


ここ で は , アル ゴリ ズム を どの よう に 実装 する か を 検討 
し ます . 以下 で は デー タ ・ パス は 汎用 の も の を 利用 し , ス 
テー ト ・ マ シン は び C 言 語 か ら 直接 生成 と いう 手法 を と る こ 
と に より , 高 性 能 ・ 高 効率 を 実現 し て いく こと に し ます . 


人 @ 実装 方 針 

ここ で 実装 方 針 を 決め て 行き ます . 

入出 力 の 仕様 は , 仕様 書 で 示さ れ て いた も の に 合わ せる 
こと に し まし た . 従っ て , デー タ の 入出 力 に それ ぞ れ 64 サ 
イク ル ず つ 必 要 と な り ま す . 

ここ で 外部 クロ ッ ク を 4 て い 倍 し て 内 部 で 使用 し , 256 
サイ クル 以内 に FFT 自体 の 計算 が 終わ る よう に 最適 化 を 
行う こと に し ます . 乗算 回 数 は 196 回 な の で , 計算 順序 を 
工夫 すれ ば ひと つの 乗算 器 を 使い まわ す FFT 回 路 が 期待 
で きま す . 


人 @ 入出 力 関連 デー タ ・ パ ス 
外部 クロ ッ ク を 4 て い 倍 し た 内 部 クロ ッ ク で 動作 する た 


K64 点 凶 | FFT 演 算 回 路 素 64 点 凶 
バッ ファ 図 凶 メイ ン 部 分 較 デ ー タ 史 


図 1 デー タ ・ パス の 概要 


出力 デー タ ・ 脱 」、 
バッ ファ 較 ン 


す る た め に 入力 バッ ファ と 出力 バッ ファ を 採用 し た . 


外部 クロ ッ ク を 4 て い 倍 し た 内 部 クロ ッ ク で 動作 する た め , クロ ッ ク の 差 を 吸 


め , クロ ッ ク の 差 を 吸収 する た め に 入力 バッ ファ と 出力 
バッ ファ を 採用 し まし が 図 1). 

各 バ ッ フ ァ へ の 読み 書き は , 外部 か ら の 信号 送出 の 開始 
に 同期 し て 動作 させ る こと に し ます . 


@ FFT 演算 メイ ン 部 の デー タ ・ パ バス 

Split-RADIX 方 式 の FEFT 演算 で は , すべ て の 乗算 が 加 
算 の 後に 行わ れ , か つ , 実数 乗算 と 実数 加算 の 比 が 196: 
964 主 1: 5 に な り ま す . この た め , 1 個 の 乗算 器 と 5 個 の 
加減 算 器 を 実装 し , か つ , デー タ ・ パ ス は 図 2 の よう に 設 
計 し まし た . 

この 回 路 の デー タ ・ パ ス 上 に は , 1 個 の 乗算 器 と 5 個 の 
加算 器 を 配置 し て いま す . また 記憶 素子 は , 10 個 の RAM 
ブロ ッ ク ( BANK0~ BANK9) と 回 転 因子 の ROM か ら な 
り ま す . そし て , それ ら を クロ スバ ー・ ス イッ チ で 結合 し 
て いま す . 

回 路 構成 を 単純 化す る た め , 各 RAM ブロ ッ ク か ら は 決 
まっ た 演算 器 の 決ま っ た ポー ト に し か デー タ が 出せ な く 
な っ て いま す . また , 単純 化 の た め , すべ て の RAM は 一 
つの 読み 出し ポー ト と 一 つの 書き 込み ポー ト の み と し まし 
た . RAM の ポー ト 数 を 削減 する こと に より , スケ ジュ ー 
リン グ の 難し さ は 増加 し ます が , 回 路 は 単純 化し ます . こ 
れ に より , 低 消費 電力 で 高速 な デー タ ・ パ ス が 実現 可能 に 
な り ま す . 

な お , この デー タ ・ パ ス 中 に は 和 積 演算 を 行う と いう , 
変 な 回 路 が あり ます . 将来 的 に 高 性 能 FPGA 上 に 実装 する 
こと を 踏ま える な ら , 積 和 演 算 回 路 か 独立 に RAM を 持つ 
構成 に し た ほう が よかっ た 注 12 と 考え て いま す . 


クロ スバ ー・ ス イッ チ 凶 

ーー RAMIRAM 国 RAMIKRAM 打 RAMIRAM 国 RAMIRAM 

BANKI 病 ANK【 弟 BANK 岡 ANK 人 BANK 陣 ANK 較 BANK 圏 ANK 陸 BANK 較 ANKM 
0 1 1 4 5 8 9 


2 
⑦⑳-ー | 回転 困 子 ROM | 


図 2 FFT 演算 の デー タ ・ パ ス 


1 個 の 乗算 器 と 5 個 の 加算 器 を 配置 し て いる . 記憶 素子 は 10 個 の RAM ブ ロッ 
ク ( BANK0~ BANK9) と 回 転 因子 の ROM で ある . 全体 を クロ スバ ー・ ス イッ 
チ で 結合 し て いる . 


っ | 
に 放 | 
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人 @ 疑似 命令 を 使っ て 制御 信号 を 記述 

Spiit-RADIX 方 式 で は 従来 の RADLX-4 方 式 と 比較 し て , 
ルー プ 構 造 が 複雑 に な る 傾向 に あり ます . 複雑 な ルー プ 構 
造 で , し か も , 全部 で 1160 回 の 演算 が 必要 で す . これ ら の 
演算 を すべ て 手 作 業 で スケ ジュ ー リ ング する の は 少々 酷 な 
た め , ソフ ト ウェ ア で 制御 信号 を 作成 する こと に し ます . 

この ソフ トウ ェ ア 制 御 で は , 必要 な 信号 を すべ て パッ ク 
し た 信号 列 を 格納 し た ROM 記述 を 作成 し ます . 結果 と し 
て , プロ セッ サ が 利用 する アセ ン ブ リ ・ コ ー ド みた いな も 
の が で き 上 が っ て し まっ た の で , 以降 は この 信号 の セッ ト 
を 擬似 命令 と 呼ぶ こと に し ます . この 擬似 命令 は 以下 の 制 
御用 の デー タ を 保持 し ます . 
e 各 RAM ブ ロッ ク の 読み 出し アド レス 
e 各 RAM ブ ロッ ク の 書き 込み アド レス 
e 各 RAM ブ ロッ ク の ライ ト ・ イ ネー ブル 信号 
e 回 転 因子 の ROM デー タ 
e* ク ロス バー・ ス イッ チ の 制御 信号 

この 信号 幅 は あわ せ て 169 ビ ッ ト あり ます . 

以下 で は , この 擬似 命令 と 前 章 で 示し た デー タ ・ パ ス を 
利用 し て , どう や っ て FFT 演算 を 実現 し て いく か に つい 
て 説明 し ます . 


@ ステ ー ト ・ マ シン を ソフ トウ ェ ア で 生成 

今回 は , FFT 向け の ステ ー ト ・ マシ ン を 言語 注 11 の プ 
ログ ラム か ら ほ ば ぼ ば 自動 で 導く こと に し まし た . これ に より , 
点数 の 増加 や 演算 器 の レイ テン シ 変 更 な ど が あっ た 場合 に 
も 容易 に 対応 で きる よう に な る で し ょ う . 

入力 は , リス ト 1 に 示す よう な 普通 の C 言 語 プ ログ ラム 
で す . 出力 は , リス ト 2 に 示す よう な VHDL に よる ROM 
の 記述 で , ソー ス ・ コ ー ド に その まま 貼り 付け て 使い ます . 
ステ ー ト ・ マ シン の 具体 的 な 生成 手順 は 以下 の 通り で す . 


注 12: 最近 の 高 性 能 な FPGA で は 積 和 演 算 器 が 搭載 され て いる た め . 
注 13: 正確 に は C+ 十 な の だ が , FFT の アル ゴリ ズム の 記述 分 で は C 寺 十 
の 機能 を ほとん ど 何 も 使っ て いな い の で い C 言 語 と 書い て いる . 


リス ト 1 入力 する C ソ ー ス ・ コード 


Yo1d EfE (doub1e ar[64] , doub1e ai [64] ) { 
for(int 1, ]..-) 人 { 
// ar, ai に rgrr 操 作 を する 処理 

今回 は sp1it-RADTX FFT を 採用 


詳細 は 省略 
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1) C 言 語 で 記述 し た 実数 演算 を すべ て 単純 な 三 番 地 文 に 置 
き 換 える 
2) 64 点 の Spiit-RADIX FFT の アル ゴリ ズム の すべ て の 加 
減算 と 乗算 の 実行 履歴 を 抽出 
3) 抽出 され た 加減 算 か ら , 変数 の 使い 回 じ 副作用 ) を 除去 
4) 各 変 数 を どの リソー スズ RAM の BANK) に 割り 当て る か 
決定 
5) 演算 の 順序 を 保っ た まま , 効率 的 に 演算 が 行え る よう に 
スケ ジュ ー リ ング 
6) スケ ジュ ー リ ング 結果 を 出力 

この 手順 の 中 で 1) は 完全 に 手 作 業 で 行い , 残り を 自動 化 
し まし た . 

自動 化す る 個所 で は , 前 半 で 簡単 な プロ ファ イル 生成 を 
行い な が ら , 擬似 命令 セッ ト を 作成 し や すい よう に 言語 
の コー ド を 変換 し て いき ます . 後半 は ハー ドウ ェ ア に 合わ 
せ た ス ケ ジ ュ ー リ ング で す . これ は コン パイ ラ の 基礎 で す . 


@⑯ プロ ファ イル 作成 と コー ド 変 換 

簡単 な お プロ グラ ム で 3) ま で の 実行 を 行う 場合 の 例 を 図 3 
に 示し ます . 

ステ ッ プ 1) す べ て の 演算 を 三 番地 文 に 変更 

ステ ッ プ 1) で は , 後続 の 処理 を 簡単 化す る た めす べ て の 
演算 を 三 番地 文 1 演算 の 式 ) に 変更 し ます . 

ステ ッ プ 2 ) す べ て の 加減 算 と 乗算 の 実行 履歴 を 抽出 
ステ ッ プ 2) で は , ルー プ 展 開 を 行う た め に , 実際 に どの 
経路 を プロ グラ ム が 通る か の プロ ファ イル を 抽出 し ます . 
ステ ッ プ 3) 変数 の 使い 回 し を 除去 

ステ ッ プ 3) で は , 変数 へ の 代入 が 2 上 度 発 生 し な いよ うに 
書き 換え ます . 


リス ト 2 出力 され る VHDL 記述 


ConStan ヒ Stae _rOm : StaEe_ array : 
-- ここ か ら 一 つ 目 の 1e9bit の Vrrnw 命令 
( state => ( 

r0000000000000000" 
0000011010000000" 


, -- RAMO0 の 制御 信号 
, -- RAM1 の 制御 信号 


-- RAM2 の 制御 信号 
-- RAM3 の 制御 信号 


"0000011010000000", 
"0000011010000000", 
0000011010000000" , -- RAM4 の 制御 信号 
0000011010000000" , -- RAM5 の 制御 信号 
0000011010000000" , -- RAMe の 制御 信号 
0000011010000000" , -- RAM7 の 制御 信号 
0000011010000000" , -- RAM8 の 制御 信号 
r0000011010000000" -- RaM9 の 制御 信号 
), 
wadata => "000000000") , -- 利用 する 回 転 因 子 デー タ 
-- ここ まで 一 つ 目 の 1egbit の VLI W 命 令 

. (以下 、 同 様 の 形式 で 255 命令 並ぶ ) ... 


さて , ステ ッ プ 3) を 終え た コー ド で ひと つつ 気付 く こ と が 
あり ます . それ は , この プロ グラ ム が 容易 に 回 路 に 変換 で 
きる と いう こと で す . ルー プ が 完全 に 展開 され た 状態 で , 
変数 へ の 副作用 が な い の で すか ら , Verilog HDL な ら 
wtre 宣言 と asstgn 文 だ け を 利用 し て この プロ グラ ム の 
挙動 を 書く こと が で きる の で ず リス ト 3). 


@⑯ ハー ドウ ェ ア に 合わ せ た ス ケ ジ ュ ー リ ング 

リス ト 3 の 回 路 で FFT 専用 回 路 と する と , 196 個 の 乗算 
器 が 必要 に な る 超 巨 大 回 路 が で き 上 が っ て し まい ます . 動 
作 も 遅い の で 使い 物 に な り ま せん . そこ で , さら に これ を 
高速 化し つつ , ひと つの 乗算 器 で 計算 する た め に スケ ジュ ー 


サン プル ・ プ ログ ラム (簡単 な 積 和 演算 の 例 ) 


for(1=0: 1<10: 1++) 人 
Sum += a[1] * D[i]: 


) 


すべ て の 文 を 1 演 外 三 番地 文 ) で 書く よう に する . 


for(1=0: 1<10: 1++) 人 
tmp = a[i] * b[i] : 
Sum = Sum + tmp: 


) 


手 で 展開 較 


print 文 を 追加 し て 簡易 ルー プ 展 開 を 行う . 


for(1=0: 1<10: 1++) 人 W 
tmp = ai は] * b] 手 で printf 文 を 追加 凶 
Sum = Bum + mp: 

printfF (“tmp 
printE ("sum 


) 


a[*d] * b[*d]Nn”, 1) リ 
Sum + tmpNn ) : 


形 (年 き 換え 後 。 普通 に プロ グラ ム の 実行 を 行う ) 


実行 後 の printf 文 の 出力 結果 


tmp 
Sum 
tmp 
Sum 


a[0] * b[O]: 
Sum + tmD: 
a[1] * b[1] : 
Sum + tmD: 


芋 
選 


tmp = a[9] * Db[9]: 
Sum = Sum + mp: 


副作用 の 除去 (変数 の 書き 換え を し な いよ うに 変形 ) 


tmp_0 
Sum 1 
tmp_1 
Sum 2 
… (中 略 
tmp_ 9 = a[9] * b[9]: 

Sum 10 = gum 9 + mp 9: 


a[0] * b[O]: 

Sum 0 + Kmp 0: 

a[1] * b[1] : 

gum 1 + mp 1: プロ グラ ム で 変換 図 


図 3 前 半 部 で 行う プロ ファ イル 作成 と コー ド 変換 処理 の 例 

ステ ッ プ 1) で は , 後続 の 処理 を 簡単 化す る た めす べ て の 演算 を 三 番地 文 1 
演算 の 式 ) に 変更 する . ステ ッ プ 2) で は , ルー プ 展 開 を 行う た め に , 実際 に 
どの 経路 を プロ グラ ム が 通る か の プロ ファ イル を 抽出 する . ステ ッ プ 3) で 
は , 変数 へ の 代入 が 2 度 発生 し な いよ うに 書き 換え る . 


リン グ を 行う 必要 が あり ます . 
ステ ッ プ 4) 変数 の 割り 当て 

ステ ッ プ 4) 以降 で は , デー タ ・ パ ス に 合わ せ た ス ケ 
ジュ ー リ ング を 行い ます . まず は 変数 の バン BANK0 
BANK9) の 割り 付け か ら は じ め ま し た . な ぜ な ら すべ て の 
デー タ は RAM の いずれ か の バン ク に 存在 する 必要 が あり , 
か つ , 各 演 算 器 は その ソー ス を 二 つ の 決ま っ た バン ク か ら 
読ま な く て は いけ な いと いう 制約 が ある た めで す . し か も , 
加算 結果 を 乗算 に 利用 する 場合 に は , その 加算 の 入力 二 つ 
は 必ず BANK0 と BANK1 に 置く 必要 が ある と いっ た 厳し 
い 制 約 が ある こと も あり , 手 で すべ て の 制約 を 満た し つつ 
スケ ジュ ー リ ング を 行う こと が 困難 だ っ た た め , 以降 の 処 


リス ト 3 途中 経過 の 出力 と HDL 記述 の 例 


Yoid ffEE(doub1e ar[64] , doub1e ai[64]) { 
doub a エ [0] . ar[32]: 


doub ai[0] . ai[32] : 
01 3 aa 内 216 且 敵 細 


doub 
doub ai [0] + ai[321 : 1160 演 算 を 較 
ar[48] . ar[16] : 行っ て いる 個所 図 


doub 
ai [48] . ai[16]: | 


@ oO 
R 
m 


doub 

ar [16] + ar[48]: 
ai [16] + ai[48]: 
下 230nee2PE2 5 


doub 
doub 
doub 


(>。。 
doub1e r 1156 
doub1e エ 1157 
doub1e r 1158 
doub1e r 1159 
ar [0 
a1 [0 
ar [1 


出力 を 配列 に 図 
[62] 
a [2] 」 書き 出し て いる 図 


ar [63] 
a1 [63] 


( a) ステ ッ プ 3 の 終了 後 の FFT 


// 64 点 同 時 入力 
output [13:0] dr 0, di 0, H 
// 64 点 同 時 出力 


wire [13:0] エ r 0, エ 1, 


as8tgnr 0 ar 0 . ar 32: 呈 内 
呈 天 ー・ 記 本 
a881gn エ 1 ai 0 . ai 32: 副作用 が な いた め , 


。 (中 略 ) .… 特に 何 も せ ず HDL 化 
a881qdn エエ 1159 = エ 843 + エ 943: する こと が 出来 る . 図 
a881tgn Qr 0 = エ 1078: 回 転 因子 ROM は 定数 

- (中 略 ) .… で 展開 する . 図 
agg1gn Gr 63 = エ 1074: 乗算 の ビッ ト 幅 に も 
a8g1ign di 63 ェ 1075: 注意 する 必要 が ある . 


endmmodu1e 
) 


( b) Verilog 化し た 場合 
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理 は ソフ トウ ェ ア で 自動 化し て いま す . 
この スケ ジュ ー リ ング は , 計算 の 木 構造 DAG: directed 


acyclic graph) へ の パタ ー ン ・ マ ッ チ ング で 実現 し まし た . 
これ も コン パイ ラ の 最適 化 手法 と し て は 一 般 的 な も の で す 
か ら , 詳し い 説 明 は 省き ます . な お , この ステ ッ プ 4) の 段 
階 で は 各 バ ンク に は 無限 に エン トリ が ある と し て マッ ピン 
グ を 行い ます . また , この 時 点 で は 時 間 的 に いつ 計算 する 
か も 決め て いま せん . た だ , 利用 する バン ク を 決め て いる 
だ け で す . 

実際 の 処理 内 容 の 例 を 図 4 に 示し ます . この 例 で は ③ の 
計算 で r_530 を 乗算 に 利用 し て いる の で , ① の 演算 の r_521 
と r_524 は BANK0 と BANK1 に 配置 する 必要 が あり ます 
また , ② は r_530 を 利用 し て いま す が , 乗算 側 と は 別 の レ 
ジス タ 上 に マッ プ さ れる の で , それ を 踏ま えて スケ ジュ ー 
ル す る 必要 が あり ます . そし て , ④ に 含ま れる r_529 と 
r_531 は 計算 の ペア な の で , 必ず BANK2 と BANK3 な ど 
の よう に ペア に な る バン ク を 割り 当て る 必要 が ある と いう 
こと に な り ま す . 
ステ ッ プ 5) 演算 の スケ ジュ ー リ ング 

どの バン ク の ペア で 計算 する か は 決ま っ た の で , ステ ッ 
プ 5) で は いつ 計算 する か を 決定 し ます . 具体 的 に は ある 演 


ステ ッ プ 3. 終了 後 か ら の 処理 図 
較 


doub1e r 529 
doub1e r 530 
doub1e r 531 
doub1e r 532 
doub1e r 533 
doub1e r 534 
doub1e r 535 


+ 5 
+ : // ① 
還 


wa[14] * r 530, // ③ 
wg[14] * エ 528: 


r 529+r 531, // ④ 較 


較 

ステ ッ プ 4 で 抽出 する 情報 例 図 

較 

1.r_ 530 は ③ で 乗算 を する た め 、r_521, r 524 は BANK0,1 に 割り 付け 財 
2.r 529,r 531 は ペア と し て 利用 図 

3.r_521, r 524 は ペア と し て 利用 図 

較 

ステ ッ プ 5. ス ケ ジ ュ ー リ ング 例 図 

図 

1.r_ 530 は ① で 演算 され 、② と ③ を 計算 し た 後 、 破 棄 す る 較 
2.r_533 と r_534 は 乗算 な の で 、 優 先 的 に スケ ジュ ー リ ング 図 
当 ( a) 処理 手順 較 


図 4 後半 部 で 行う ハー ドウ ェ ア に 合わ せ た ス ケ ジ ュ ー リ ング の 例 


算 の 入力 側 の オペ ラン ド が 揃っ た 命令 を 加算 器 に 対し て 発 
行 し , 利用 し 終わ っ た 値 を 格納 し て いる エン トリ が あれ ば , 
その エン トリ を 解放 する と いう こと を 行い ます . 変数 の 生 
存 グ ラフ を 解き な が ら , 計算 順序 を 決め る わけ で す . 例え 
ば , r_530 は ① の 命令 発行 後に 生成 され , ② と ③ の 命令 が 
発行 され た 後に は , 不要 と な る た め メ モリ 資源 を 解放 し ま 
す . また , ②③ は ① の 3 クロ ッ ク 後 に 発行 可能 に な り ま す . 
また , も し も 命令 を 発行 する 場合 に は , その と き に 必要 な 
RAM の リー ド ・ ポ ー ト や ライ ト ・ ポ ー ト が 空い て いる 必 
要 が ある と いう 制約 が あり ます . 

ステ ッ プ 42) と ステ ッ プ 5) の 処理 は 基本 は 乗算 優先 の マッ 
ピン グ で す . 乗算 器 と その 直前 の 加算 器 は どう し て も 込み 
や すく な る の で 最初 に 優先 的 に 計算 する よう に な っ て いま 
す . こう し て , いっ た ん 無限 の エン ト リ が ある 仮想 的 な 
RAM に 対し て 変数 を マッ ピン グ し , その 後 , 変数 の 生存 
グラ フ を 解き な が ら , 実 メ モリ へ の マッ ピン グ を 行う と い 
う 操作 は , 一 般 的 な コン パイ ラ の 最適 化 技法 の ひと つ で , 
GCC な ど で も 利用 され て いま す . 

ステ ッ プ 6) VHDL ソー ス ・ コ ー ド の 出力 

ステ ッ プ 6) で は VHDL の constart 文 の 形式 で この ス 
テー ト ・ マ シン の 内 容 を 出力 する よう に 設定 し まし た . こ 


次 が 乗算 図 


レジ スタ で 図 な の で , 図 


値 を 受け る 較 
に 割り 付け 図 


この 先 の 制約 で 図 
割り 付け BANK を 
決め る も の も ある 


r_533 図 r529 図 
BANK? 図 BANK3 


( b) ステ ッ プ 4, 5 で の 操作 を 可視 備 DAG 構 造 化 ) し た も の 図 


ステ ッ プ 4) で は , 例え ば ③ の 計算 で r_530 を 乗算 に 利用 し て いる の で , ① の 演算 の r_521 と r_524 は BANK0 と BANK1 に 配置 する こと を 決め る . ステ ッ プ 5) で 


は いつ 計算 する か を 決定 する . 
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の 出力 は 直接 VHDL フ ァイル に 貼り 付け る こと が で きま す 
( 今回 の 場合 に は 出力 が 4000 行 くら いあ る ). 

この プロ グラ ム 中 で は 演算 器 の レイ テン シ な ど を パラ 
メー タ 化 し て いる の で , 例え ば 演算 器 を 深い パイ プラ イン 
で 切る な ど と いっ た 処理 は 非常 に 高 効率 に 行う こと が で き 
まり > 

ここ まで の 議論 か ら , この 半自動 で の ステ ー ト ・ マ シン 
設計 は 図 2 の デー タ ・ パス を 持つ VLIW プロ セッ サ に 対す 
る マシ ン ・ コ ー ド 生成 と いっ て も よい だ ろう と 私 は 考え て 
いま す 注 14. 

結果 と し て は , 無事 この コン パイ ラ で 256 サ イク ル 以 内 
の 演算 を 定義 むす る こと が で きま し た . お そら く , 乗算 優先 
の ポリ シ を 貫い た こと が よかっ た の だ と 考え て いま す . 


人 @ 演算 器 の 利用 効率 

256 サ イク ル の 中 で , すべ て の 演算 器 の 利用 率 注 1 の 平均 
値 は 75.5% と な り , 75% を 超え まし た . これ は 一 般 的 な 
CPU で は 絶対 に 実現 する こと が で き な い 効率 で す 注 16. な 
ぜ な ら ば , 加算 器 と 乗算 器 の 数 が 等 し い CPU で は 乗算 器 
の 利用 効率 が 25% 程度 に な っ て し まう た め , 演算 器 全体 の 
利用 効率 が 683% を 超え る こと は な いた めで す . 以上 か ら , 
少な く と も 汎用 の プロ セッ サ を 超越 する 高 効率 の アク セラ 
レー タ の 設計 が 実現 で き て いる と いえ る で し ょ う . 


表 2 評価 環境 


XC3S200-5PQ208 

Xilinx ISE WebPA CK 8203 
ModelSim Xilinx Edition I 60a 
な し 

コン パイ ル ・ オ プシ ョ ン | すべ て Default 値 を 利用 


表 3 64 点 FFT 演算 回 路 


ここ で は 作成 し た VHDL フ ァイル を 合成 し , その 評価 を 
行い ます . な お , 手持 ちの FPGA ボー ド ( 米国 Xiimx 社 の 


XC3S50) に 実装 で き な か っ た た め , 評価 は 論理 合成 と シ 
ミュ レー ショ ン で 行い まし た 往 17. 

評価 環境 は 表 2 に 示し た 通り です. また , 合成 結果 は 表 
3 に 示し た よう に な り ま し た . 目標 と する 1 乗算 器 , 内 部 
動作 100MHz を 実現 する こと が で き て いる こと が 分 か り ま 
す . な お , 内 部 は 4 て い 倍 の クロ ッ ク で 動作 し て いる た め , 
外部 クロ ッ ク は 25MHz と 比較 的 低速 こ に な っ て いま すま *18. 
また , 5 個 の メモ リ ・ ブ ロッ パ Block RAM) を 利用 し て い 
ます が , 各 メ モリ ・ ブ ロッ ク は 半分 の 容量 し か 利用 し て い 
ませ ん . これ は ブロ ッ ク RAM の 最小 エン ト リ 数 が 512 で 
ある た めで , 今回 の 設計 で は 256 エ ント リ し か 必要 な いた 
め , この よう な 設計 と な っ て いま す . ここ も 最適 化 の 可能 
な 個所 で は ある の で す が , 時 間 の 都合 で この まま に し て い 
まり 

動作 確認 は シミ ュ レ ーション で 行い まし 図 5). 内 部 
クロ ッ ク を 4 て い 倍 し て いる た め , クロ ッ ク ご と に デー タ 
を 与え られ る スル ー プ ッ ト を 実現 し て いる こと が 分 か り ま 


注 14: ハー ドウ ェ ア と ソフ ト ウェ ア と の 強調 は , 今後 ます ます 重要 に な る 
0 64 点 FFT と いう 問題 の 落と し どこ ろ と し て , この よ 
うな 切り 設計 し た 点 を 評価 し て いた だ ける と 幸い で ある . 

注 15: 演算 器 を 中 し た サイ クル 数 を 全 サ イク ル 数 で 割っ た 値 を 想定 し て 
いる . 今回 は 6 個 の 演算 器 の それ ぞ れ に 対し て この 値 を 求め た 上 で , 
その 平均 を 評価 対象 と し た . 

注 160: も ちろ ん , 専用 に カス タマ イズ し た プロ セッ サ で は この 限り で は な 
い . TeraRecon 社 の グラ フィ ックス ・ ア クセ ラレー タ な ど は その 一 
例 で あ ぞ 2?. ちな み に , この プロ セッ サ も VLIW の 命令 セッ ト だ っ 
た よう で , 思想 は 似 て いる 気 が する . 

注 17: こん な こと な ら 豪 華 な 基板 を 借り て お け ば よかっ た , と 後悔 し て いる . 
注 18: 近年 の ノイ ズ な ど を 考慮 し た 高密 度 基板 設計 の 大 変 さ を 考え る と 外 
部 信号 を 低速 に する の は 悪い アイ デア で は な いと 考え て いる . わた 
し の 技術 で 100MHz 超 の は ん だ 付け な ど が で きる 気 が し な か っ た と 
いう の も ある . 


50 入 力 XOR 


合成 結果 使用 量 


使用 率 量 使用 率 


LUT 数 2 ,096 


54% 1% 


フリ ッ プ フロ ッ プ 数 


0% 


スラ イス 数 


60% 1% 


乗算 器 数 


8% 0% 


ブロ ッ ク RAM 


41% 0% 


DCM 


25%6 0% 


ゲー ト 数 換算 値 


8246UNITA REA 2448 


49UNITAREA 


クリ ティ カル ・ パ ス 


4756UNITDELAY 12117ns 


6UNITDELAY 
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1 Ei 
% 晶 候 則 | RIN 回 Q 多 取 | 時 | 紅 還 紅蘭 門 


7mam_test_vhd/ck 1 
ain_tes_vhd/head 0 


図 5 

シミ ュ レ ーション 結果 

内 部 クロ ッ ク を 4 て い 倍 し て いる 
た め , クロ ッ ク ご と に デー タ を 与 
えら れる スル ー プ ッ ト を 実現 し て 


p 0140( 
Eusor1 pps 


入力 波形 凶 


出力 が 122 サ イク ル 
遅れ て 出 て くる 較 


本 | 


本 上 
[3ezm BB44 ps to 3981 43611 ps 


いる こと が 分 か る . 


す . 図 は サン プル の 入力 に 対す る 出力 で す が , その ほか の 
サン プル に 対し て も 期待 通り の 出力 が 得 ら れる こと を 確認 
し て いま す . 


る 5. さら な る 最適 化 を 目指 し て 


これ まで 説明 し て きた 回 路 は 実際 に コン テス ト に 提出 し 
た も の で す . し か し , 最適 化 の アイ デア 自体 は まだ た くさ 
ん あり ます . 


9 


@ バイ プラ イン 処理 

ー つ 目 は パイ プラ イン 処理 で す . 実は , 私 の 設計 能力 の 
関係 で コン パイ ラ を 書く こと に 手間 取っ て し まい , デー 
タ ・ パス の 最適 化 が 間に合っ て いま せん で し た . これ を 改 
善 し た も の を 表 4 に 示し ます . 低 コ スト FPGA で 150MHz 
を 超え て いま すか ら , まあ まあ よい と ころ まで 攻め た の で 


表 4 パイ プラ イン 処理 を 行っ た 場合 の 合成 結果 


LUT 数 54% 
フリ ッ プ フロ ッ プ 数 22% 
スラ イス 数 と 71% 
乗算 器 数 8%6 
ブロ ッ ク RAM 41% 
DCM 259%6 
ゲー ト 数 換算 値 8251 UNITA REA 
クリ ティ カル ・ パ ス 2923 UNITDELAY 


108 Design Wave Magazine 2007 June 


Now: 401.400 ns Delta:4 


は な い だ ろ うか と 考え て いま す . 

この と き に コン パイ ラ に 加え た 主 な 修正 は , ADD_ 
LATENCY と いう 加算 の レイ テン シ を 定義 する 変数 を 1 か 
ら 3 に 変更 させ た だ け で す . 狙い 通り , 汎用 的 に 動作 する 
も の が で き て いた の だ な , と 感動 し て し まい まし た . 


@ RAM 制御 の 最適 化 

ニ つ 目 は RAM の 制御 の 最適 化 で す . そもそも バタ フラ 
イ 演 算 に お ける 加減 算 は , 必ず 加算 と 減算 を セッ ト に し て 
行い ます . そこ で , これ を 同時 に 行い や すい よう に デー 
タ ・ パス を 設計 し 直し て み ま し た . 

最適 化し た デー タ ・ パス 自体 は すぐ に 考え る こと が で き 
て , 図 6 の よう に な り ま す . ここ を 最適 化す る こと が で き 
れ ば RAM の バン ク 数 を 減ら すこ と が で きま す . 実は , こ 
の アイ デア 自体 は 初期 の 頃 か ら あ っ た の で す が , コン パイ 
ラ 側 の 設計 で 時 間 を 取ら れ て し まい , 結局 , 実装 まで 到達 
で きま せん で し た 。, 


@ RAM 容量 の 最適 化 

三 つ 目 は RAM の 容量 の 最適 化 で す . 今回 の 設計 で RAM 
は 10 バ ンク で 合計 320 エ ント リ 分 確保 し て いた の で す が , 
実は その うち の 6 割 程度 し か 使っ て いま せん . これ は 各 バ 
ンク に 必要 な RAM の エン ト リ 数 が 20 エン トリ 程度 だ っ た 
か ら , と いう こと が 背景 に あり ます . この 100% 使 わな い 
RAM の エン ト リ た め に 資源 を 割く の も ば か ば か し い の で 


R 


エー KNAM 


図 6 RAM 制 御 の 最適 化 の アイ デア 


バタ フラ イ 演算 に お ける 加減算 は , 加算 と 減算 を セッ ト に し て 行う の で , これ 


を 同時 に 行い や すい よう に デー タ ・ パス を 設計 し 直す . 


何と か 改善 し た いも の で す . 

アイ デア と し て は CELL プロセッサ の Local Store の よ 
うな スク ラッ チ パ ッ ド を 搭載 する こと が 挙げ られ ます . 
7 の よう に, 各 RAM の エン トリ を 16 程 度 で 固定 し て し ま 
い , あふ れ た デー タ を スク ラッ チ パ ッ ド に 保存 し て お く と 
いう こと に な り ま す . これ も スピ ル 処 理 と し て よく 知ら れ 


た も の で す . これ を 実現 で きれ ば メ モリ の 利用 効率 は 向上 
する こと が 期待 で きま す . 


人 @ 多 点 FFT の サポ ー ト 

四 つ 目 は 多 点 FFT の サポ ー ト で す . 
まま , 多 点 の FFT に 適用 し た 場合 に 
ン が 肥大 化し て し まい ます . これ は 状態 の 
きる と 考え て いま す . 

例え ば , FFT は リス ト 4 の よう な 再帰 的 な アル ゴリ ズム 
で も 記述 で きま す . この 再帰 で 呼ぶ 先 の アル ゴリ ズム を 一 
定点 数 以下 に な っ た ら 変 更 す る と いう 手法 を と れ ば よい の 
で は な いか と 考え て いま す . 


現在 の 実装 を その 
は , ステ ー ト ・ マ シ 
再 利用 で 解決 で 


人 @ 改善 点 は まだ まだ 多い 

ほか に も , 沖縄 で 開催 され た コン テス ト 発表 会 の 参加 者 
の 方 か ら ク ロス バー を やめて リン グ ・ バ ス に し た ら ど うか , 
と いっ た 指摘 を 受け まし た .「 や れる こと , や る べき こと 」 
を 整理 し て 列挙 する と , や る こと だ ら け だ な , と 改め て 感 
じ ま す . も っ と 勉強 を し て , こう し た こと を 実現 し て いけ 
る エン ジニ ア に な っ て いき た いも の で す 注 19. 


図 7 RAM 容量 の 最適 化 の アイ デア 


各 RAM の エン トリ を 16 程 度 で 固定 し て し まい , 
チ ・ パッド に 保存 する . 


リス ト 4 再帰 処理 を 利用 し た FFT プ ログ ラム 


Vo1d ff て (in rn, doub1e theta, complex a[] , 
tmp [] ) 


1nt nh, ]: 


1F (n <= 1) reurn: 

nh =n / 2: 

for (] = 0: ] < nh: ]++) { 
complex x = a[]] . a[nh + ]]: 
complex w = (cos(theta * ]), 
tmp[]] = a[] + a[nh + ]]: 
tmp[nh + ]] =x* Wi 


) 


gin(Eheta * ]) ) : 


2 * theta, tmp, a) : // 再起 呼び 出し 箇所 
2 * theta, &tmp [nh] , a) : 


Ft (nh, 
Ft (nh, 


] < nh: コ ++) 人 { 
a[2 * ]] = tmp[]]: 


For (] = 0: 


a[2 * ]+ 1] 


) 


= tmp[nh + 1: 


沖縄 で 開催 され た コン テス ト 発表 会 に お いて , 
表 を 聞い て 感じ た こと を 紹介 し ます . 

まず , レベ ル が 非常 に 高い と 感じ まし た . 京都 
ム の マル チコ ア FEFT も も ちろ ん な の で す が , 


あふ れ た デー タ を スク ラッ 


comp1ex 


// 再起 呼び 出し 箇所 


学生 の 発 


大 学 チー 


ほか の 参加 


チー ム で も 200MHz ^ 400MHz で 回 路 を 動作 させ た チー ム 


が あり まし た . つい 先日 まで 233MHz 動作 の Pent 


搭載 し た パソ コン を 利用 入 9 し て いた 私 は , 大 い に 


ium II を 
驚か さ 


E19: これ が 一 番 の Future Work だ ろう . 
E20: サー バ と し て の 利用 だ が . 


本 本 
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れ ま し た . また , 20 歳 前 後 の 非 常に 若い 学生 が 果敢 に チャ 
レン ジ し て いる さま も 印象 に 残っ て いま すま 4. こう し た 
後輩 達 に 負け な いた め に も も っ と 精進 し な く て は , と 良い 
刺激 を 受け た コン テス ト で し た . 


今回 の コン テス ト で は 限ら れ た リソー ス を 有効 活用 する 


た め の 最 適 化 ア ル ゴ リ ズム を 採用 し , それ に 基づく FFT 演 
算 回 路 の 設計 を 行い まし た . この 提案 アル ゴリ ズム で は 乗 
算 の 回 数 を 極限 まで 削減 する こと に よる 演算 回 路 の リソー 
ス 量 を 削減 する こと を 目指 し まし た . 

また , デー タ ・ パス 構成 を 汎用 的 な 構成 に し て , ステ ー 
ト ・ マ シン の 記述 を ソフ ト ウェ ア に よる 自動 生成 で 作成 し , 
急 な 仕様 変更 お な ど に も 柔軟 に 対応 で きる こと を 目標 と し て 
設計 を 行い まし た . 拡張 後に 最良 の 設計 と な る よう に 設計 
し た た め , 現在 の 設計 は 現在 の 仕様 の 下 で は 最良 で は な い 
も の に な っ て いま す 注 劣 . 

その 結果 と し て , 100MHz で メイ ン 部 分 が 動作 を し , 演 
算 器 の 利用 効率 75% 超 を 実現 する FFT 演算 回 路 を 設計 する 
こと が で きま し た . この こと は , ソフ トウ ェ ア ・ ハ ー ド ウェ 
ア の 協調 設計 の 強み を アピール する こと が で きた も の と 考 
えて いま す . 

また , 隠れ た チャ レン ジ と し て , 今回 の 設計 は すべ て 無 
償 で 利用 で きる ソフ ト ウェ ア を 利用 し て 作成 し て み ま し た . 
一 音 前 は ,「 EDA ツール の ライ セン ス が な いか ら HDL で 


注 21: 私 が 20 歳 の 頃 は , まだ HDL を 書い た こと が な か っ た . 

注 22: 今回 の 構成 より も , より 小さ く , より 速い 単純 で すなお な 64 点 FFT 
避 路 を 書く の は 簡単 . し か し , 私 が ひね くれ 者 な の で , こう いっ た 
実装 に な っ た . 


設計 する こと が で き な い 」 な ど と いっ て 嘆い た 時 代 だ っ た 
は ず で す が , 今 で は , 誰 で も 簡単 に プロ グラ ム 感 覚 で 回 路 
が 書け る 時 代 に な っ て いる と いう こと を 改め て 感じ る こと 
に な り ま し た . 

入社 以来 , アー キテ クチ ャ か ら 実装 ま で すべ て を 自由 に 
作る 機会 と いう も の が 存在 し な か っ た の で , 久しぶり に 自 
分 の 裁量 で 上 か ら 下 ま で すべ て を 設計 し , 非常 に 楽し く , 
か つ , 貴重 な 経験 を する こと が で きま し た . 
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